iT邦幫忙

DAY 15
1

百里路半九十,也就說今天完成四分之一了!﹝是這樣算嗎?﹞,最近加班成自然了﹝疑?﹞,也越來越晚睡了﹝就跟你說別打電動了!﹞

昨天把抓下來的資料整理過後,今天就要想辦法分析了!今天很認真的打了註解!是不是就能少打一些解說呢?

targetList = [ "a" ] #目標標籤
siteMap = []
for y in TagList :
    #print( y[1] )
    if y[0] in targetList : #尋找<a>標籤
        Attr = y[1].split(" ") #分離屬性
        for z in Attr: 
            IgCh = [ '"' , "'" ] #去除前後分號
            if re.search( r'^href=' , z ):
                if z[5] in IgCh: #判斷是否有分號
                    if z[6:-1] not in siteMap: #判斷是否重複
                        rehostUrl = "^" + hostUrl #判斷是否為同一個Domain #尚未判斷相對路徑
                        if re.search( hostUrl , z[6:-1] ):
                            siteMap.append( z[6:-1] )
                else:
                    if z[5:] not in siteMap:
                        siteMap.append( z[5:] )

今天的進度看到很多層的 if 和 for ,證明我太懶了!該整理成函式了!

相對路徑的判斷還要再想一下,因為還有 #something 或是 javascript: void(0) 這種值要處理!

如果還要處理用 onclick 轉頁那就更複雜了!目前應該先不考慮...

以上,晚安!


上一篇
[Day 14]sitemap-01
下一篇
[Day 16]sitemap-03
系列文
從魯蛇到蟒蛇--網頁(站)靜(動)態分析工具開發30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言